
阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%
阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%高效多页文档理解,阿里通义实验室mPLUG团队拿下新SOTA。
来自主题: AI技术研报
6343 点击 2024-09-13 21:27
高效多页文档理解,阿里通义实验室mPLUG团队拿下新SOTA。
多模态文档理解能力新SOTA!阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。